Hacia una anotación de dependencias enriquecida de corpus españoles

نویسندگان

  • Simon Mille
  • Alicia Burga
  • Vanesa Vidal
  • Leo Wanner
چکیده

We present a cost-effective strategy for the creation of a mid-size fine-grained Spanish dependency tree bank of surface-, deep-syntactic and semantic structures as defined in the Meaning-Text Theory. The strategy starts from a small seed dependency corpus, the AnCora corpus, whose annotation is considerably more coarse-grained than our target annotation. We show that this discrepancy can be bridged largely by automatic means. This allows us to develop the resources with limited human effort within a limited period of time. We also propose a preliminary evaluation of the actual amount of work that the annotation process requires.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

How Does the Granularity of an Annotation Scheme Influence Dependency Parsing Performance?

The common use of a single de facto standard annotation scheme for dependency treebank creation leaves the question open to what extent the performance of an application trained on a treebank depends on this annotation scheme and whether a linguistically richer scheme would imply a decrease of the performance of the application. We investigate the effect of the variation of the number of gramma...

متن کامل

El consumo de medios informativos y las actitudes hacia los inmigrantes. Álvarez-Gálvez, Javier (ARTÍCULOS. REIS No145)

Aunque existen evidencias de la importancia de los medios en la formación de actitudes de los españoles hacia el colectivo inmigrante, raramente se diseñan indicadores de encuesta que permitan explicar la relación entre el tratamiento mediático que recibe la inmigración y las actitudes de los nativos hacia dicho fenómeno. En este trabajo, haciendo uso de una muestra de estudiantes universitario...

متن کامل

Aspectos ortográficos, léxicos y morfosintácticos del etiquetado lingüístico de un corpus de informática en lengua gallega

Resumen. En este trabajo se examinan algunos aspectos del etiquetado lingüístico de un corpus técnico de informática en lengua gallega, en lo que respecta a cuestiones ortográficas, léxicas y morfosintácticas. En primer lugar, presentamos la características del corpus analizado y algunas de las aplicaciones de su procesamiento. A continuación, mostramos las técnicas empleadas en su anotación mo...

متن کامل

Un Marco para la Definición de Métricas sobre Modelos de Dependencias entre Actores

Resumen. Los modelos de dependencias entre actores son un formalismo que describe los procesos como una red de relaciones de dependencias entre actores. En la actualidad, este tipo de modelos se usa, entre otros, en las fases preliminares del análisis de requisitos, en el análisis organizacional y en la reingeniería de procesos. En este artículo, proponemos un marco para la definición de métric...

متن کامل

Anotación automática de datos acerca de la reputación de los políticos en redes sociales

Resumen. Recientemente, la minerı́a de opinión en Twitter, por medio de la Recuperación de Información (RI) y del Procesamiento de Lenguage Natural (PLN) atrajo interés en la investigación polı́tica. Sin embargo, la obtención de datos anotados de dominio especı́fico sigue siendo un paso manual muy costoso. Además, la cantidad y calidad de estas anotaciones pueden ser crı́ticas en relación al rendim...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • Procesamiento del Lenguaje Natural

دوره 43  شماره 

صفحات  -

تاریخ انتشار 2009